18.4 보상 함수 설계자와 진화적 최적화 (Reward Design & Evolutionary Optimization)

18.4 보상 함수 설계자와 진화적 최적화 (Reward Design & Evolutionary Optimization)

18.4 보상 함수 설계자와 진화적 최적화 (Reward Design & Evolutionary Optimization)
18.4.1 Eureka: 인간 수준의 보상 함수 생성: 강화학습(RL)에 필요한 복잡한 보상 함수(Reward Function) 코드를 LLM이 직접 작성하고 수정하는 기술 *
18.4.2 진화적 코드 최적화: 시뮬레이션 결과를 피드백(Feedback)으로 받아, LLM이 보상 함수 코드를 반복적으로 개선(Refinement)하는 과정
18.4.3 DrEureka: 시뮬레이션(Sim)에서 생성된 보상 함수를 현실(Real)의 물리적 제약에 맞춰 강건하게 변환하는 방법